传统上,自动语音识别的研究重点是对音频表示的本地首选编码,以预测话语中的语音。不幸的是,依靠此类超本地信息的方法往往容易受到本地级腐败(例如音频框架掉落或大声的噪音)和全球级别的噪音(例如环境噪音或背景噪音)在训练期间看到。在这项工作中,我们介绍了一种新颖的方法,该方法利用了基于掩盖语言建模的自我监督的学习技术来计算对话语发生的环境的全球多模式编码。然后,我们使用一个新的深融合框架将这种全局上下文集成到传统的ASR方法中,并证明所得的方法可以在LibrisPeech上胜过高达7%的基线方法;内部数据集的收益范围从6%(较大型号)到45%(在较小的型号上)。
translated by 谷歌翻译
The increasing number of surveillance cameras and security concerns have made automatic violent activity detection from surveillance footage an active area for research. Modern deep learning methods have achieved good accuracy in violence detection and proved to be successful because of their applicability in intelligent surveillance systems. However, the models are computationally expensive and large in size because of their inefficient methods for feature extraction. This work presents a novel architecture for violence detection called Two-stream Multi-dimensional Convolutional Network (2s-MDCN), which uses RGB frames and optical flow to detect violence. Our proposed method extracts temporal and spatial information independently by 1D, 2D, and 3D convolutions. Despite combining multi-dimensional convolutional networks, our models are lightweight and efficient due to reduced channel capacity, yet they learn to extract meaningful spatial and temporal information. Additionally, combining RGB frames and optical flow yields 2.2% more accuracy than a single RGB stream. Regardless of having less complexity, our models obtained state-of-the-art accuracy of 89.7% on the largest violence detection benchmark dataset.
translated by 谷歌翻译
我们考虑了有多个具有不同奖励功能的利益相关者的情节强化学习问题。我们的目标是输出有关不同奖励功能在社会上公平的政策。先前的工作提出了不同的目标,即公平政策必须优化,包括最低福利和广义的基尼福利。我们首先对问题进行公理视图,并提出四个公理,任何这样的公平目标都必须满足。我们表明,纳什社会福利是一个独特的目标,它独特地满足了所有四个目标,而先前的目标无法满足所有四个公理。然后,我们考虑了基础模型,即马尔可夫决策过程未知的问题的学习版本。我们考虑到最大程度地降低对公平政策最大化的遗憾的问题,从而最大化三个不同的公平目标 - 最低限度的福利,广义基尼福利和纳什社会福利。基于乐观的计划,我们提出了一种通用的学习算法,并在三种不同的政策方面得出了遗憾。为了纳什社会福利的目的,我们还遗憾地得出了一个遗憾的遗憾,它以$ n $(代理的数量)成倍增长。最后,我们表明,为了最低限度福利的目的,对于较弱的遗憾概念,人们可以将遗憾提高到$ o(h)$。
translated by 谷歌翻译
综合光子神经网络(IPNN)成为常规电子AI加速器的有前途的后继者,因为它们在计算速度和能源效率方面提供了实质性的提高。特别是,相干IPNN使用Mach-Zehnder干涉仪(MZIS)的阵列进行单位转换来执行节能矩阵矢量乘法。然而,IPNN中的基本MZI设备易受光刻变化和热串扰引起的不确定性,并且由于不均匀的MZI插入损失和量化错误而导致不确定的不确定性,这是由于调谐相角的编码较低而导致的。在本文中,我们首次使用自下而上的方法系统地表征了IPNN中这种不确定性和不确定性(共同称为缺陷)的影响。我们表明,它们对IPNN准确性的影响可能会根据受影响组件的调谐参数(例如相角),其物理位置以及缺陷的性质和分布而差异很大。为了提高可靠性措施,我们确定了关键的IPNN构件,在不完美之下,这些基础可能导致分类准确性的灾难性降解。我们表明,在多个同时缺陷下,即使不完美参数限制在较小的范围内,IPNN推断精度也可能会降低46%。我们的结果还表明,推论精度对影响IPNN输入层旁边的线性层中MZI的缺陷敏感。
translated by 谷歌翻译
我们介绍了表演性强化学习的框架,学习者选择的政策会影响环境的基本奖励和过渡动态。遵循有关表演预测的最新文献〜\ cite {perdomo等。 Al。,2020},我们介绍了性能稳定政策的概念。然后,我们考虑了强化学习问题的正则版本,并表明,在合理的假设对过渡动态的合理假设下,反复优化此目标将其收敛到性能稳定的策略。我们的证明利用了强化学习问题的双重观点,并且可能在分析其他算法与决策依赖性环境的融合方面具有独立的兴趣。然后,我们将结果扩展到学习者仅执行梯度上升步骤而不是完全优化目标的设置,以及学习者可以从变化的环境中访问有限数量的轨迹的设置。对于这两种设置,我们都利用表演性增强学习的双重表述,并建立与稳定解决方案的融合。最后,通过对网格世界环境的广泛实验,我们证明了收敛对各种参数的依赖性,例如正则化,平滑度和样品数量。
translated by 谷歌翻译
本文研究在线算法增强了多个机器学习预测。尽管近年来已经广泛研究了随着单个预测的增强在线算法,但多个预测设置的文献很少。在本文中,我们提供了一个通用算法框架,用于在线涵盖多个预测的问题,该框架获得了在线解决方案,该解决方案具有与最佳预测指标的性能相对的竞争力。我们的算法将预测的使用纳入了在线算法的经典分析中。我们应用算法框架来解决经典问题,例如在线封面,(加权)缓存和在线设施位置,以在多个预测设置中。我们的算法也可以鲁棒化,即,可以根据最佳的预测和最佳在线算法的性能(无预测)同时使算法具有竞争力。
translated by 谷歌翻译
基于奇异值分解的相干集成光子神经网络(SC-IPNN)具有大的占地面积,遭受高静态功耗进行训练和推理,并且不能使用传统的DNN修剪技术进行修剪。我们利用彩票假设提出了一种用于SC-IPN的第一种硬件感知修剪方法,通过最小化重量参数的数量来缓解这些挑战。我们修剪基于多层的Perceptron的SC-IPN,并显示高达89%的相位角,其对应于SC-IPNN中的重量参数,可以在减少时具有可忽略的精度损失(小于5%)。静电功耗高达86%。
translated by 谷歌翻译
纵向脑磁共振成像(MRI)含有病理扫描的登记是由于组织外观变化而挑战,仍然是未解决的问题。本文介绍了第一脑肿瘤序列登记(Brats-Reg)挑战,重点是估计诊断患有脑弥漫性胶质瘤的同一患者的术前和后续扫描之间的对应关系。 Brats-Reg挑战打算建立可变形登记算法的公共基准环境。关联的数据集包括根据公共解剖模板,为每个扫描的大小和分辨率策划的DE识别的多机构多参数MRI(MPMRI)数据。临床专家在扫描内产生了广泛的标志标记点,描述了跨时域的不同解剖位置。培训数据以及这些地面真相注释将被释放给参与者来设计和开发他们的注册算法,而组织者将扣留验证和测试数据的注释,并用于评估参与者的集装箱化算法。每个所提交的算法都将使用几个度量来定量评估,例如中位绝对误差(MAE),鲁棒性和雅可比的决定因素。
translated by 谷歌翻译
我们提出了一种用于相干光子神经网络的新型硬件感知幅度修剪技术。该技术可以将99.45%的网络参数进行99.45%,并将静态功耗降低98.23%,精度损失可忽略不计。
translated by 谷歌翻译
In the Priority $k$-Center problem, the input consists of a metric space $(X,d)$, an integer $k$, and for each point $v \in X$ a priority radius $r(v)$. The goal is to choose $k$-centers $S \subseteq X$ to minimize $\max_{v \in X} \frac{1}{r(v)} d(v,S)$. If all $r(v)$'s are uniform, one obtains the $k$-Center problem. Plesn\'ik [Plesn\'ik, Disc. Appl. Math. 1987] introduced the Priority $k$-Center problem and gave a $2$-approximation algorithm matching the best possible algorithm for $k$-Center. We show how the problem is related to two different notions of fair clustering [Harris et al., NeurIPS 2018; Jung et al., FORC 2020]. Motivated by these developments we revisit the problem and, in our main technical contribution, develop a framework that yields constant factor approximation algorithms for Priority $k$-Center with outliers. Our framework extends to generalizations of Priority $k$-Center to matroid and knapsack constraints, and as a corollary, also yields algorithms with fairness guarantees in the lottery model of Harris et al [Harris et al, JMLR 2019].
translated by 谷歌翻译